查看原文
其他

PacBio平台解析全基因组CpG甲基化

生信阿拉丁 生信阿拉丁 2022-05-16


PacBio平台解析全基因组

CpG甲基化


自三代神灯宝典(神灯宝典之PB三代重测序分析实录(一)神灯宝典之三代重测序分析实录(二))以来,由于种种原因,云歌很久未和各位小伙伴见面了~


今天掐(Bei)指(Bi)一(Wu)算(Nai),也是该发篇稿子了,那就和小伙伴们简单聊聊三代测序的应用和PB测序平台5mC检测方向,作为回归的热身~






三代测序平台应用概览

近几年,以PacBio和ONT为主的三代测序平台,以其独有的超级长读长(与二代和一代测序平台比较),在很多应用领域里都有较好的表现。

ONT平台在读长和测序成本上有明显优势,而PacBio平台推出的CCS测序模式,使得其在一定程度上,既兼顾了读长,又有良好的测序精准度,当然价格上也有些小贵。一、二、三代测序粗略对比如下表所示:

Adam, et al. "Single-Molecule Sequencing: Towards Clinical Applications. " Trends in Biotechnology (2018).

除读长外,能否在测序中直接检测到碱基的修饰,也是三代和之前测序平台的明显区别。

根据测序平台自身的特性,不同应用研究领域有着不同的最优测序平台选择,总结起来可以如下表所示:

Adam, et al. "Single-Molecule Sequencing: Towards Clinical Applications. " Trends in Biotechnology (2018).

从实际项目来看,目前三代测序在De novo基因组组装领域有着绝对的优势,并已经成为此领域的主流测序平台。

而在传统的重测序方向,尽管PacBio平台产出的HIFI reads在SV、CNV、INDEL等变异检出中有着很大优势,但限于成本,目前此领域选择三代测序的用户相对较少。


PacBio平台甲基化检测



DNA甲基化概念

基因组DNA甲基化和去甲基化可以通过不改变DNA序列的情况下,改变生物体性状,是表观遗传学中重要的组成部分。

通常甲基化在基因组中主要形成5-甲基胞嘧啶(5-mC)和少量的N6-甲基腺嘌呤(N6-mA)及7-甲基鸟嘌呤(7-mG),真核生物中,5-甲基胞嘧啶主要出现在CpG序列、CpXpG、CCA/TGG和GATC中。

甲基化与遗传物质的稳定性、基因表达调控、表观遗传学、胚胎发育、肿瘤发生等皆有密切联系。



DNA甲基化的检测方式

BS-Seq(Bisulfite sequencing)是目前应用最广泛的全基因组甲基化检测方式,通过亚硫酸氢盐(Bisulfite)可以使未被甲基化的C(胞嘧啶)转化为U(尿嘧啶),结合二代测序和后续信息分析,实现高通量甲基化位点检测。

BS方法虽然是目前的主流方法,但是存在亚硫酸氢盐处理后DNA可能会发生降解,且甲基化水平较低的区域更容易降解等一些弊端,因此无法很好的结合三代测序领域。

近年来也有些研究人员尝试用TAPS等BS-free的方式进行甲基化位点高通量检测,但是实验环节的繁琐步骤,也为检测带来了很大的难度。

三代平台中,ONT和PacBio平台分别可以根据碱基通过微孔的电信号变化或者DNA聚合酶合成DNA序列时,时间和信号强度形成的脉冲信号的差异来鉴定5mC或者6mA等碱基甲基化。

ONT平台19年6月有文献报道过的方法5mC和6mA的准确率皆能达到90%以上,感兴趣的小伙伴可以参考下图文章:



PacBio三代甲基化检测

从之前PB官方发布的smrt link9.0 配套的碱基修饰概述里可以看到:

PB目前支持6mA和4mC等在脊椎动物中不算太主流甲基化位点类型,且文档中并未提到5mC这种比较主要的甲基化位点类型的检测的相关信息。

即使是6mA和4mC在官方文档中所需测序深度也是较高的:

结合PB测序的价格,目前能看到关于PB检测甲基化位点的文章和项目多数都是微生物或参考基因组较小的物种。

当然也有些研究人员尝试利用PB平台测序聚合酶在不同碱基的信号特征鉴定5mC,但是准确率和敏感度都不是很高。

今年年初《PNAS》上一篇《Genome-wide detection of cytosine methylation by single molecule real-time sequencing》的文章报道了一种基于聚合酶信号特征的新算法,使得在人鼠中CpG位点的5mC检测准确率和敏感度皆在90%以上。

该研究团队通过PacBio Sequel 系列测序仪在测序过程中DNA聚合酶在DNA链延伸的过程中不同的碱基,碱基上是否有修饰都会使得荧光信号产生不同的信号差异来区分CG位点的胞嘧啶是否发生甲基化,如下图所示:

和PB官方算法中侧重考量IPD(相邻碱基信号峰间距)不同的是,文章里同时使用IPD,PW,C位点上下游序列等特征,结合互补双链综合考量位点是否发生甲基化。

通过PCR扩增得到几乎未甲基化的DNA双链和通过甲基化转移酶得到的几乎全部发生C位点甲基化DNA双链进行PB平台测序,并使用测序得到的数据中C位点上下游序列、IPD、PW作为特征,分别作为训练集和测试集,通过卷曲神经网络进行机器学习模型训练和测试,测试结果如下:

从上图中可以看出,以0.5的甲基化得分作为阈值来区分甲基化和非甲基化C位点,PB sequel两个种型号测序仪对应的三种试剂版本皆有不俗的表现。

此外,该文章还对测序深度和模型中使用C位点上下游序列在内的窗口大小进行测试,最终发现以C位点为中心的21nt窗口作为一个检测单元,且测序深度达到10X,即可达到很好的检出效果,ROC曲线AUC值0.93,如下图所示:

在人鼠杂交片段中,通过扩增和甲基化转移酶,分别保证其中一个物种的序列为非甲基化C或者全甲基化C,通过测序和CpG中胞嘧啶甲基化检测,验证模型效果如下图所示:

       

可以看出上图内,已知甲基化或非甲基化的部分,在模型检测中也吻合序列真实的甲基化情况,甲基化水平没达到100%或0%,除了模型的准确性外,还受到扩增中原生DNA自带部分5mC和甲基化转移酶本身的效率影响。

文章中接下来采用相同经典细胞系,对比开发出的PB平台甲基化检测模型和BS-seq检测CpG中5mC检出效果,如下图所示:

Circos图中内圈为文章中开发的模型采用PB测序平台检出5mC效果,外圈为BS-seq检出5mC效果(窗口大小1MB),相关性可达0.99以上。

考虑到PB三代测序在序列长度(8~15Kb)和hifi reads高准确性特征,以及此甲基化检测模型仅需10X CLR的测序深度,在目前大多数三代DNA相关的重测序、de novo组装项目中,我们皆可使用相应测序数据同时得到样品的甲基化图谱和样品间甲基化水平的差异情况,且更容易得到甲基化在基因组中的分型等信息。


写在后面

如今三代测序平台的发展,有些时候像极了10年前的二代测序,尽管在许多方面皆有不俗的表现,但在性价比、应用广泛性、市场认知、配套软件和应用等方面还有很多值得深入挖掘的地方。

需要上到科学家,下到相关行业各个岗位的小伙伴积极探索。目前来看,至少在变异检测方向,HiFi reads在全变异检测方向,确实有着成为金标准的潜质,改天和各位小伙伴接着聊~


参考文献

  1. Adam, et al. "Single-Molecule Sequencing: Towards Clinical Applications. " Trends in Biotechnology (2018).

  2. Tse, O. Y. Olivia , et al. "Genome-wide detection of cytosine methylation by single molecule real-time sequencing." Proceedings of the National Academy of Sciences 118.5(2021):e2019768118.

  3. Liu, Q , et al. "Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data." Nature Communications 10.1(2019):2449.


作者:云歌

审稿:童蒙

编辑:angelica


精 彩 回 顾

一文看懂植物单细胞测序怎么做?

三代SV检测软件之cuteSV

如何处理不平衡数据集(附代码)

如何自动化进行特征工程

一个跨物种研究关联基因表达模式的好方法

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存